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基于 MapReduce 模型 的 侵蚀 地 形 因 子 计算 方法 研究 
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摘 要 : 针对 传统 侵蚀 地 形 因 子 提取 方法 在 处 理 海 量 数据 时 出 现 的 瓶颈 ， 提 出 一 种 基于 MapReduce 模型 的 侵蚀 地 形 
子 计算 方法 。 该 方法 将 并 行 计 算 模型 MapReduce 与 改进 的 通用 土壤 流失 方程 (revised universal soil loss equation, RUSLE ) 
相 结合 。 利 用 最 大 坡 降 原理 和 B+ 树 建立 流向 关系 查找 树 来 表现 地 形 数据 的 相关 性 ; 利用 MapReduce 模型 进行 流 路 查 
找 与 栅 格 汇聚 来 替代 传统 正 反 向 遍历 算法 ， 解 决 侵蚀 地 形 因子 计算 过 程 中 汇 水 和 累计 坡 长 的 计算 效率 问题 。 实 验 结果 
表明 ， 对 于 基于 海量 数字 高 程 模型 数据 的 地 形 因子 提取 ， 该 方法 能 够 在 计算 精度 允许 的 范围 内 有 效 提高 效率 。 
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Calculation of topographic factor on soil erosion based on MapReduce 


Wang Meng, Zhang Hongming' 
(College of Information Engineering, Northwest A&F University, Yangling Shaanxi 712100, China) 


Abstract: Aiming at the bottleneck of traditional extraction method of topographic factor on soil erosion in processing massive 
data, we propose a method based on MapReduce. This method combined the parallel computing model MapReduce with the 
revised universal soil loss equation(RUSLE) . The method established the flow relationship search tree by the principle of steep 
slope and the B+ tree, and represented the correlation of topographic data; The method used the MapReduce model to search 
flow path and converge grid instead of the traditional forward and backward traversal algorithm, and solved the efficiency of 
the flow accumulation and slope length calculation in topographic factor calculation. The experimental results show that for the 
extraction of topographic factor from massive digital elevation model, the method can effectively improve the extraction 
efficiency in the range of the allowable accuracy. 
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精度 不 断 提高 ， 数 据 量 不 断 增 大 ， 如 何 处 理 和 利用 这 些 数 据 已 

经 成 为 地 理 信息 系统 用 户 的 一 大 挑战 [。 

地 形 是 土壤 侵蚀 和 水 土 保 持 措 施 布 设 的 主要 影响 因素 口 。 部 分 研究 者 认识 到 ， 现 有 串 行 算法 在 处 理 大 区 域 海 量 数据 
地 形 特征 包括 坡度 、 坡 长 、 坡 向 、 曲 率 、 地 形 起 伏 度 等 。 在 众 时 计算 能 力 不 足 ,因此 尝试 利用 高 性 能 计算 平台 进行 水 文 分 析 。 
多 的 地 形 特 征 中 坡度 和 坡 长 是 两 个 非常 重要 的 特征 I。 两 者 影 。” Wendleder 等 人 [6 利用 基于 消息 传递 接口 的 并 行 化 工具 , 提出 了 
响 坡 面 径流 的 汇 量 和 水 流 挟 沙 力 ， 是 定量 计算 土壤 流失 的 重要 一 种 格 网 DEM 的 侵蚀 学 坡 长 并 行 计算 方法 。 但 是 该 方法 在 选 
指标 B]。 在 通用 水 土 流失 方程 和 其 改进 版 本 (universal soil loss 取 数 据 分 割 块 、 设 置 缓冲 区 大 小 以 及 合并 分 割 结果 时 会 遇 到 困 
难 趾 。Qin 等 人 [9 利用 图 形 处 理 单元 的 处 理 能 力 , 结合 图 论 的 并 
两 者 共同 决定 了 侵蚀 地 形 因 子 的 计算 。 对 于 小 流域 或 者 更 大 的 行 化 策略 ， 对 多 流向 算法 进行 了 改进 ， 有 效 提升 了 流向 与 坡度 
区 域 尺度 ,坡度 和 坡 长 通常 是 利用 DEM( digital elevation model) 的 计算 效率 ， 但 受 存储 容量 限制 ， 该 方法 对 海量 数据 地 形 特 征 
来 提取 中 。 提取 不 够 理想 。Dan 等 人 四 借助 用 户 级 别 的 虚拟 内 存 系 统 ， 利 
近年 ， DEM 获取 技术 发 展 迅速 , 无 人 机 技术 、 航 空 摄影 测 用 共享 内 存 多 线程 系统 来 处 理 水 文 地 形 ; 但 该 方法 不 利于 计算 

量 、LiDar (light detection and ranging techniques ) 都 能 够 方便 、 像 汇 水 这 样 需 要 反复 迭代 的 水 文 特 征 。 因 此 ， 迫 切 需要 研究 一 
快捷 地 获得 较 高 精度 的 DEMI51。 从 发 展 趋势 来 讲 ，DEM 数据 种 从 海量 数据 中 提取 侵蚀 地 形 因 子 的 方法 。 
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云 计算 与 大 数据 技术 的 兴起 为 空间 大 数据 计算 带 来 了 机 机 

与 挑战 00。 将 云 计 算 技术 与 数字 地 形 分 析 技 术 相 结合 ， 实 现 对 
海量 数据 的 检索 查询 和 计算 ， 逐渐 成 为 地 理 信息 系统 
(geographic information systetm，GIS ) 的 新 兴 研 究 领域 [11。 目 
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1.3 累计 坡 长 计算 

计算 累计 坡 长 之 前 需要 计算 每 个 栅 格 的 USL (unit slope 
length)。USL 主要 有 以 下 两 种 情形 : a) 基础 栅 格 ， 如果 栅 格 的 
流向 是 水 平 或 垂直 方向 ， 取 值 Cel1Size， 如果 是 对 角 线 方向 ,和 


前 ， 比 较 流 行 的 开源 地 理 空 间 大 数据 分 析 工 具有 


值 V2*CellSize; b) 截断 栅 格 ， 如 果 该 截断 棚 格 的 流向 是 水 平 


SpatialHadoop[l] 和 GeoSpark[l3].GeoSpark 完全 基于 内 存 计算 ， 
速度 上 优 于 SpatialHadoop 。 两 者 提供 了 可 直接 调用 的 接口 ， 如 
范围 查询 、KNN (k nearest neighbor) 计算 和 空间 数据 拼接 等 。 
但 水 文 相关 模型 的 解决 方案 较 少 ， 尤 其 对 于 侵蚀 因子 计算 过 程 
中 汇 水 及 累积 坡 长 的 提取 还 没有 提供 解决 方案 。 
本 文 利用 MapReduce 模型 的 分 布 式 计算 能 力 , 提出 一 种 分 
布 式 侵蚀 地 形 因子 计算 方法 。 该 方法 解决 了 海量 地 形 数据 计算 
过 程 中 出 现 的 效率 低下 和 内 存 限制 问题 ， 对 于 促进 数字 地 形 分 
析 理 论 与 技术 体系 的 完善 和 SpatialHadoop 和 GeoSpark 等 工 
的 发 展 有 借鉴 意义 。 


1 ”侵蚀 地 形 因子 计算 原理 


侵蚀 地 形 因子 提取 过 程 主要 分 为 四 个 部 分 : a) 利用 
Deterministic8 (D8) 算法 计算 流向 和 坡度 ; b) 依据 a) 中 流向 
数据 计算 汇 水 面积 ， 并 利用 阔 值 和 截断 因子 及 流向 数据 设置 流 
路 中 断 点 ; c) 计算 累计 坡 长 ; d) 根据 地 形 学 公式 ， 利 用 
坡度 和 c) 中 累计 坡 长 计算 侵蚀 地 形 因子 。 其 中 输入 的 DEM 数 
据 是 ASCII 文本 数据 。 为 了 保证 数据 的 完整 性 ， 在 计算 之 前 需 
要 判断 数据 是 否 符合 计算 要 求 。 
1.1 D8 算法 

坡度 和 流向 的 计算 采用 O'Callaghan 等 人 04 提 出 的 D8 算 
来 计算 .D8 算法 的 原理 是 :用 最 大 坡 降 原理 来 确定 水 流 的 方向 ， 
即 在 3*3 的 DEM 网 格 上 ， 计 算 中 心 网 格 与 各 相 邻 网 格 间 的 坡 
度 ， 取 坡度 结果 最 大 值 作为 中 心 网 格 的 坡度 ， 并 且 最 大 值 所 在 


aj 中 


或 垂直 方向 ， 取 值 Cel1Size/2 ， 如 果 是 是 对 角 线 方向 ， 取 值 V2 
/2*CellSize。 

累计 坡 长 为 从 坡 面 径 流 的 起 点 到 径流 被 拦截 点 或 流 路 中 断 
点 的 水 平 距离 071。 其 计算 公式 为 如 式 (2) 所 示 。 其 中 : 4; 为 
坐标 点 (i, 疙 的 坡 长 ; m 是 坡 长 指数 。 


X= y= m 


4j= 2 24, O) 
X=0, y=0 k=1 


1.4 ”侵蚀 地 形 因 子 计算 

本 文 利用 Mccool 等 人 nsl] 提 出 的 式 3)~(7) 完 成 侵蚀 地 形 医 
子 的 计算 。 其 中 : LS 表示 侵蚀 地 形 因子 ; 8$ 表示 坡度 因子 ; 工 表 
示 坡 长 因子 ;9 代表 坡度 ;4 代表 坡 长 ;22.1 表示 标准 小 区 坡 长 ; 
有 表示 坡度 变化 因子 。 


LS=L*S G3) 
10.8sin0g+0.03 © 0<9° 
We 0>9° 他 
L=(4/22.1)" (5) 
m=pP/(+pP) (6) 
B=(sinO)/|3.(sinO)" +0.56 | (7) 


2 基于 MapReduce 模型 的 侵蚀 地 形 因 子 计算 
2.1 实验 数据 

为 测试 实验 结果 的 准确 性 ， 本 文 利用 陕西 省 韭 园 沟 和 甘肃 
省 龙泉 县 不 同 分 辩 率 的 DEM 作为 研究 数据 进行 测试 。 韭 园 沟 


方向 即 为 中 心 网 格 的 流向 051。 坡度 计 算 公 式 如 式 (1) 所 示 。 其 
中 : 5 为 坡度 : DEM: 为 中 心 栅 格 的 高 程 值 ，DEMi 为 周围 8 个 
栅 格 的 高 程 值 ; Length 在 水 平 或 竖 直 方向 取 CellSize, 在 对 角 线 
方向 取 V2 *CellSize。 

< Men wun 02a | DEM .# DEM, 
0.1 DEM. = DEM, 

1.2 汇 水 计算 及 截断 设置 
汇 水 的 计算 是 根据 每 个 栅 格 的 水 流 方 向 ， 计 算出 每 一 个 栅 
格 单元 的 上 游 集 水 面积 ng。 目前 比较 常用 的 是 Zhang 等 人 ng 提 
出 的 迭代 算法 。 该 方法 采用 扫描 线 的 方式 ， 通 过 对 栅 格 点 正 反 
向 遍历 计算 汇 水 。 
坡 长 计算 需要 考虑 两 种 截断 : 坡度 截断 和 沟 道 截断 。 坡 度 
截断 通过 判断 坡度 变化 率 和 中 断 因子 的 关系 来 确定 。 当 坡度 变 
化 率 大 于 中 断 因子 时 ， 该 点 标记 为 截断 点 。 沟 道 截断 通过 设置 


(D) 


押 积 约 70 km2， 海 拔 825 m~1200 m， 平 均 坡度 28.9°。 龙 泉 县 
面积 约 100 km2， 海 拔 1951 m~2540 m， 平 均 坡 度 26.6*。 两 块 
区 域 属于 典型 的 黄土 丘陵 沟 蜜 区 ， 地 表 支 离 破碎 ， 水 土 流失 严 
重 , 具有 较 大 的 高 程 范围 和 坡度 范围 , 适合 做 常规 测试 。 此外， 
为 验证 程序 在 大 区 域 尺度 的 运行 情况 ， 本 文 使 用 全 国 SRTM 
(shuttle radar topography mission) 1 弧 秒 〈 分 辨 率 约 30m) 数 
昌 进 行 测试 〈 数 据 来 源 : https:/e4ft01.crusgs.gow)。SRTM 是 
二 国 太空 总 署 (NASA) 和 国防 部 国家 测绘 局 (NIMA) 以 及 德 
国 与 意大利 航天 机 构 共 同 合作 完成 联合 完成 地 球 表面 所 进行 的 
遥感 测量 。 这 是 全 球 数字 测绘 的 一 个 重大 突破 ， 为 全 球 范围 内 
的 地 形 分 析 提 供 了 高 质量 的 DEM 数据 nu9]。 全 国 SRTM 如 图 1 
所 示 。 
2.2 方法 总 体 设计 

根据 侵蚀 地 形 因子 的 计算 特征 ，MapReduce 模型 下 侵蚀 地 
形 因子 计算 可 以 分 为 三 个 部 分 (图 2 (b)): a) 利用 D8 算法 和 


Sr 


Un 


闪 值 的 方法 确定 , 当 汇 水 面积 大 于 阔 值 时 ,标记 该 点 为 截断 点 。 


B+ 树 建立 流向 关系 查找 树 ， 并 将 地 形 数据 存储 为 适合 
MapReduce 输入 的 key-vaule 形式 ;b) 利用 MapReduce 模型 分 
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公式 计算 侵蚀 地 形 


By 


布 式 计算 汇 水 及 累计 坡 长 ;c) 用 地 形 学 


将 结果 以 DEM 形式 存储 。 


/DBy 数 据 


M4 村 : 
计算 流向 和 坡度 | = > D8 算法 及 HDFS 存 储 


计算 累计 坡 长 
> 计算 坡度 因子 | 计算 坡 长 因子 | 


(b) 工具 、 方 法 


(a) 提取 步骤 
图 2 侵蚀 地 形 因子 计算 过 程 


2.3 HDFS 存储 

MapReduce 的 输入 利用 FileInputFormat 组 件 完成 ,该 组 件 
从 HDFS (hadoop distributed file system) 上 读 取 文件 ， 并 向 
MapReduce 输出 的 以 行 号 为 key, 以 该 行内 容 为 value 的 键 值 对 
[P00。DEM 数据 是 用 一 组 有 序数 值 阵列 形式 表示 地 面 高 程 的 一 
种 实体 地 面 模型 ng。 由 于 DEM 数据 中 各 栅 格 点 之 间 的 相关 性 ， 
不 适合 直接 用 于 MapReduce 计算 ,为 此 需要 建立 流向 关系 映 
时 表 和 将 地 形 数据 以 行 级 形式 存储 在 HDFS 上 。 其 计算 过 程 如 
图 3 所 示 。 

1) 利用 B+ 树 建立 流向 关系 查找 树 。 

本 文 利用 1.1 节 中 的 D8 算法 对 DEM 数据 进行 计算 ， 并 利 
B+ 树 建 立 流向 关系 查找 树 ,， 这 样 DEM 网 格 中 的 每 一 点 都 可 
以 快速 获取 其 流出 方向 。 该 查找 树 具 有 如 下 特征 : a) 所 有 节点 
都 是 以 栅 格 点 的 坐标 位 置 为 关键 字 ， 并 且 叶 子 节点 包含 关键 字 
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所 在 位 置 栅 格 的 流出 信息 ; b) 在 插入 过 程 中 ， 当 节点 中 关键 字 
个 数 大 于 1 000 时 分 裂 成 两 个 节点 ; 9 查找 是 通过 判断 与 关键 
字 关 系 ， 选 择 相应 路 径 ， 直 到 找到 叶子 节点 获取 流出 信息 。 
2) 地 形 数据 以 行 级 形式 存储 到 HDFS 。 
在 计算 流向 坡度 过 程 中 ， 将 地 形 中 每 一 个 栅 格 点 以 字符 串 
“< 坐标 信息 > < 高 程 值 > < 坡度 值 > < 栅 格 尺寸 > < 截断 信息 > < 
汇 水 值 > < 坡 长 >< 侵 蚀 地 形 因子 >” 形 式 存储 为 文件 的 一 行 。 然 


后 利用 HDFS 客户 端 将 文件 存放 到 HDFS 上 ，HDFS 的 
NameNode 节点 自动 将 文件 分 割 为 64 MB 大 小 的 Block， 建 立 
且 数据 块 存储 在 一 


流向 关系 映射 表 


元 余 副本 ， 组 DataNode 节点 中 PDH。 


顶 格 1 --》 杨 格 2 
一 > 栅 格 3 


栖 格 3 (位置 ， 高 程 , 


0 


Block2 Block3 


Block1 Block3 
DataNode 


图 3 DEM 数据 转换 过 程 


DataNode 


DataNode 


2.4 MapReduce 模型 计算 汇 水 和 累计 坡 长 
MapReduce 是 一 个 用 于 处 理 大 规模 数据 集 的 并 行 计算 模型 
[22]。 该 模型 由 Map 和 Reduce 两 个 阶段 组 成 。 每 个 阶段 都 是 用 
键 值 对 (key/value ) 作为 输入 (input) 和 输出 (output) [23]。Map 
运行 在 多 个 计算 节点 上 ， 对 HDFS hei ap 
Map 的 输出 在 模型 内 部 会 经 历 Shuffle 过 程 ， 即 排序 、 汇 总 
把 相同 key 值 的 记录 统计 到 同一 起 ，Reduce 是 对 Shuffle 0 
数据 合并 输出 。 而 程 用 户 要 做 的 就 是 定义 好 map 函数 和 reduce 
函数 ， 即 可 完成 分 布 式 计算 P24]。 
传统 汇 水 和 累计 坡 长 计算 利用 正 反 向 遍历 方法 完成 ， 是 程 
序 中 最 为 耗 时 的 部 分 。 利 用 MapReduce 模型 进行 流 路 查找 与 栅 
格 汇聚 ， 来 解决 汇 水 和 累计 坡 长 的 计算 效率 问题 。 
2.4.1 计算 汇 水 
汇 水 计算 的 map 函数 与 reduce 函数 的 伪 代 码 如 下 : 
map(Longwritable key, Text value){ 
栅 格 对 象 0 = new 栅 格 对 象 (value) ; 
For each 栅 格 T which 0 flow intof 


Collect(T, 栅 格 尺寸 ) ; 


} 
reduce( 栅 格 对 象 K， 


long count = 6) 


LongWrite []v){ 


For each v in V{ 
count += Vv; 


} 


Collect(K,count); 
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Map 计算 的 输入 2.3 节 存 储 在 HDFS 的 地 形 数 据 ， 其 输入 


是 以 行 号 为 key， 所 在 行 字符 串 为 value 


的 键 值 对 。 其 计算 过 程 


是 将 字符 串 转换 为 栅 格 对 象 点 ， 并 对 于 每 个 栅 格 点 ， 利 用 流向 


查找 树 去 查询 以 该 点 为 起 点 的 流 路 


将 查找 结果 以 key-value 


形式 输出 , 其 中 key 为 当前 查找 到 的 栅 格 对 象 , 值 为 栅 格 尺寸。 
其 计算 过 程 如 图 4 所 示 《〈 设 栅 格 尺寸 为 1)， 图 4 (a) 表示 每 个 


点 的 流向 ; (c) 是 Map 计算 过 程 ， 如 当 


前 计算 节点 为 B3, 根据 


流向 关系 知 , B3 流向 C4, C4 流向 D4, D4 流向 无 值 区 , 因此 ， 
输出 <(B,3),1>、<(C,4),1> 和 <(D,4),1> 这 样 三 个 键 值 对 。 其 他 点 


计算 过 程 与 该 点 相同 。 


1 所 3 1 和 和 
AfrAN> A2 1 1 1 
B Ir B11 1 2 
Ci>—+ ny Cc 12.44 
Dy 51 1 110 
(a) 流向 数据 (b) 汇 水 结果 


Map Output 


<(A.3),1> <(B.4),1> 


,1,1,1,1> 
<(B,3).1> <(C.4),1> 


<(D,3),1> <(D,4),1> 


vyb 


<(D, 3), 1> 


(c)Map 过 程 


图 4 汇 水 计算 过 各 


Internal Gr 


ouping educe OQutput 


<(C,4).1> 《(D,4),1> ONLLLLL — <(D, 4), 10> 


< <(C,3),1,1,1, 1> <(C, 3),4> 


<(D, 3), 1> 


(d)Reduce 过 程 


相同 的 value 进行 统计 , 输出 到 Reduce。 


Map 计算 结束 后 ，Shuffle 过 程 进行 排序 、 汇 总 ， 把 key 值 


避 对 


己 中 男 天 


累计 坡 长 的 Map 过 程 输入 是 以 行 号 为 key， 所 在 行 字符 串 
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Collect(T,USL); 
} 
| 2 3 4 1 总 3 4 
1 国医 1 国医 /国医 A 1 |1.4|1.4| 1 
Q. | OQ 0 B | 1 lall4l 1 
0 | 1 @ | C | 1 1 ;入 
0|101011 D|1 1.4 1 
(a) 截 断 信息 (b)USL 
Input Map OQutput 
业 2 3 1 
T <(A, 3),1.4> 
| 2 1 4|1 4| 1 | (A, 3, 1.4) <(B, 4) ,1.4> 
| E <(C,4), 1.4> 
1 |1.4|1.4|2.4 a <(B, 3).1.4> 
上 一 - 十 re <(C,4),1.4> 
LSI0S i 
| | <(C, 4) ,0.5> 
(6. 4, 0. 5) <(D,4) ,0.5> 


|1|1.4 1 |0.5 


(co) 累 计 坡 长 (d)Map 过 程 
图 5 累计 坡 长 计算 过 程 


为 value 的 键 值 对 。 其 计算 过 程 是 将 字符 串 转 换 为 栅 格 对 象 点 ， 


每 个 栅 格 点 ， 利 用 流向 查找 树 去 查询 以 该 点 为 起 点 到 截断 点 
的 流 路 ， 并 将 查找 结果 以 key-value 形式 输出 ,其 中 key 为 当前 


一 | 


查找 点 ，value 为 流 路 起 点 的 USL。 其 计算 过 程 如 图 $ (d) 所 
示 。 假设 当前 计算 点 为 A3 点 ，USL 为 1.4， 根 据 流向 关系 ，A3 
流向 B4，B4 流向 C4，C4 是 截断 点 ， 不 再 寻找 ， 因 此 ， 输 出 
<(A,3),1.4>、<(B,4),1.4> 和 <(C,4),1.4> 这 样 三 个 键 值 对 。 需 要 注 


汇 水 的 Reduce 过 程 就 


是 把 同一 个 key 值 下 的 各 个 value 值 累计 起 来 , 累计 和 即 为 key 
所 在 位 置 的 汇 水 面积 。Reduce 的 输出 key 为 栅 格 对 象 点 ， 值 为 
汇 水 面积 的 键 值 对 。 其 计算 过 程 如 图 4(d) 所 示 , 对 于 C3 点 ， 


其 value 值 是 一 个 包含 4 个 1 的 集合 ， 集 


居 合 值 累 计 起 来 得 到 4， 


该 值 就 是 C3 点 的 汇 水 。 所 有 Reduce 过 程 结束 后 的 汇 水 结果 如 


图 4 (b) 所 示 。 
2.4.2 计算 累计 坡 长 


计算 累计 坡 长 之 前 需 设置 截断 信息 和 计算 USL。 如 图 5(b) 
是 根据 图 5(a) 的 截断 信息 (其 中 1 表示 截断 ) 和 图 4 (a) 的 


流向 信息 计算 出 来 的 USL。 


累计 坡 长 的 MapReduce 计算 过 程 与 汇 水 计算 类 似 , 但 稍 有 


不 同 。 其 中 Map 计算 时 需要 考虑 截断 信息 


汇 水 的 Reduce 计算 原理 完全 相同 。map 函 


map(LongWritable key, Text value){ 


栅 格 对 象 0 = new 顶 格 对 象 (value) ; 


-x. 条 
/已 、 


中 特殊 情况 ， 当 输入 点 本 身 为 截断 点 时 ， 需 要 继续 寻找 流 


路 。 如 当前 计算 点 为 截断 点 C2，USL 为 0.5， 根 据 流 向 关系 ， 


C2 流 


和 <(C,4),0.5>。 
累计 坡 长 的 Reduce 过 程 与 汇 水 的 Reduce 过 程 计算 方式 相 

同 , 都 是 对 同一 个 key 值 下 value 值 累计 , 累积 和 为 累计 坡 长 。 

Reduce 的 输出 key 为 栅 格 对 象 点 ， 值 为 累计 坡 长 的 键 值 对 。 图 


5 (ce) 


向 C4, C4 为 截断 点 ,不 再 寻找 , 因此 输出 键 值 对 <(C,2),0.5> 


为 最 终 累计 坡 长 计算 结果 。 


2.5 ”侵蚀 地 形 因子 计算 
地 形 中 每 个 栅 格 点 的 坡度 和 累计 坡 长 都 以 行 级 形式 存储 在 


HDFS 


上 。 读 取 文 件 每 一 行 , 转换 为 顶 格 对 象 , 利用 式 (3)~(7) 完 


息 ; 而 Reduce 计算 与 
数 的 伪 代 码 如 下 : 


For each 非 截断 栅 格 T which 0 flow intof 


成 侵蚀 地 形 因 子 的 计算 。 
2.6 ”实验 平台 


本 文 利用 Hadoop 平台 实现 侵蚀 地 形 因子 计算 。Hadoop 是 


一 个 开发 和 处 理 海量 数据 的 软件 平台 ， 能 够 利用 多 台 计算 机 组 


成 的 集群 对 海量 数据 进行 分 布 式 计算 B51。 实 验 利用 6 台 计 算 机 
搭建 集 


群 , 每 台 计 算 机 为 64 位 Ubuntu 操作 系统 .64 GB 内 存 、 
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4 核 Intel R Core "Mi5 CPU 处 理 器 。 
2.7 ”精度 对 比 
为 验证 本 文 方法 的 准确 性 ， 实 验 使 用 标准 差 (standard 
deviation, SD ) 和 绝对 差 (absolute deviation, AD ) 比 较 了 DWSEL 
(distributed watershed erosion slope length ) 方法 14] 与 本 文 方法 
在 坡度 、 坡 长 和 侵蚀 地 形 因 子 的 差异 。 其 计算 公式 如 式 (8) 和 
(9) 所 示 。 


2 


1 
SD 二 有 区 Paper 全 Rr) (8) 


1 oN 
AD = a | Ri paper 和 Rpwsmr | (9) 


其 中 : N 为 DEM 数据 的 栅 格 数 ; R 是 比较 类 型 ,可 取 坡 度 、 坡 
长 以 及 侵蚀 地 形 因子 值 。 


3 ”实验 结果 与 分 析 


3.1 精度 分 析 

本 文 方法 与 DWSEL 方法 在 坡度 、 坡 长 和 侵蚀 地 形 因子 的 
差异 如 表 1 所 示 。 可 以 看 到 : a) 两 种 方法 的 坡度 计算 结果 完全 
相同 ; b) 两 种 方法 的 坡 长 结果 存在 一 定 差异 ， 统 计 发 现 坡 长 误 
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要 在 0.5~20 间 。 东 北 漫 岗 丘陵 区 侵蚀 地 形 因 子 值 在 0.5 以 下 占 
76.5%, 没有 因子 值 为 5 以 上 的 ; 西南 紫色 土 丘 陵 区 侵蚀 地 形 因 
子 值 主要 在 5 以 上 ，0.5 以 下 的 占 5.1%; 西北 黄土 丘陵 区 侵蚀 
岂 形 因子 值 主要 在 5 以 上 ，0.5 以 下 的 占 1.3%; 南方 红壤 丘陵 
区 侵蚀 地 形 因 子 值 在 0.5 以 下 占 17%, 因子 值 大 于 20 占 21% 左 
右 ; 与 杨 勤 科 等 09,27] 对 全 国 典型 水 蚀 区 地 形 分 析 结 果 基 本 一 致 。 


表 2 本 文 方法 与 DWSEL 方法 运行 时 间 


运行 时 间 (s) 


分 辩 ”机 格 数 
| 方法 。 流向 和 汇 水 和 累 侵蚀 地 形 
率 (m) 〈 行 * 列 ) 总 时 间 
坡度 计 坡 长 因子 


差 在 10m 以 内 ,根据 McCool29 等 的 规定 ， 该 误差 在 允许 范 置 
内 ; c) 侵蚀 地 形 因 子 由 坡度 和 坡 长 共同 决定 ， 结 果 非 常 接近 。 


表 1 本 文 方法 与 DWSEL 方法 在 坡度 、 
及 长 及 侵蚀 地 形 因 子 之 间 的 差异 


a 坡度 坡 长 侵蚀 地 形 因子 

区 域 。 分辩 率 (m) 一 一 一 - 
标准 差 绝对 差 标准 差 绝 对 差 标准 差 绝对 差 
1 0.000 0.000 0.027 0.026 0.001 0.001 

韭 园 沟 
2 0.000 0.000 0.056 0.035 0.003 0.002 
1 0.000 0.000 0.040 0.033 0.002 0.002 
龙泉 
2 0.000 0.000 0.074 0.040 0.006 0.005 
全 国 SRTM 30 al __1 __1 | | __1 


注 : “表示 DWSEL 方法 无 法 计算 。 


3.2 ”效率 分 析 

本 文 方法 与 DWSEL 方法 在 计算 流向 和 坡度 、 计 算 汇 水 面 
积 和 累计 坡 长 、 计 算 侵 蚀 地 形 因 子 的 时 间 以 及 总 计算 时 间 对 比 
如 表 2 所 示 。 可 以 看 到 : a) 对 于 韭 园 沟 和 龙泉 两 块 区 域 ， 本 文 
方法 平均 需要 花费 DWSEL 方法 的 85.7% 时 间 处 理 流 向 和 坡度 ， 
90.0% 的 时 间 计 算 侵 蚀 地 形 因子 , 这 两 部 分 效率 相差 不 大 , 在 计 
算 汇 水 和 累计 坡 长 步 又 中 ， 本 文 方法 平均 只 需要 花费 DWSEL 
方法 的 11.7% 的 时 间 ;b) 对 于 全 国 SRTM 数据 (单个 文件 达 150 
GB), DWSEL 无 法 计算 完成 , 本 文 方法 通过 MapReduce 模型 ， 
可 以 在 多 个 计算 节点 上 分 布 式 计算 完成 ， 提 升 了 计算 效率 。 
3.3 全 国 SRTM 分 析 

全 国 SRTM 数据 的 侵蚀 地 形 因 子 结果 如 图 6 所 示 。 对 于 全 
国 SRTM 数据 ，DWSEL 方法 无 法 计算 。 为 此 对 全 国 主要 水 名 
区 的 侵蚀 地 形 因子 进行 统计 。 北 方 土 石山 区 侵蚀 地 形 因 子 值 主 


[E=3 


11110* DWSEL 813.371 4039.338 222.047 5354.224 
1 
12550 ”本 文 方法 616.191 331.676 173.166 1420.331 
韭 园 沟 
DWSEL 182.199 725.522 48.444 1147.398 
2 5555*6275 
本 文 方法 167.636 68.415 47.033 323.089 
15000* DWSEL 709.856 3087.986 199.234 4198.367 
1 
12000 ”本 文 方法 586.065 394.089 155.651 1285.805 
龙泉 
DWSEL 154.531 519.044 43.221 874.574 
2 7500*6000 
本 文 方法 143.085 84.162 46.112 299.369 
全 国 216439* DWSEL  --l --1 --1 = 
30 
SRTM 137962 本文 方法 29345.270 11471.105 4008.356 48606.003 
!1 DWSEL 方法 无 法 计算 
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4 ”结束 语 
本 文 利用 MapReduce 模型 的 分 布 式 计算 能 力 , 提出 一 种 分 


布 式 侵蚀 地 形 因子 计算 方法 。 该 方法 利用 最 陡坡 原理 和 B+ 树 建 
立 流向 关系 查找 树 , 利用 MapReduce 模型 计算 汇 水 和 累计 坡 长 
来 解决 侵蚀 地 形 因子 计算 的 效率 问题 和 内 存 限制 。 实 验 结果 表 
明 ， 对 于 基于 海量 数字 高 程 模型 数据 的 地 形 因 子 提取 ， 该 方法 
能 够 在 计算 精度 允许 的 范围 内 有 效 提高 效率 。 但 该 方法 利用 的 
是 单 流向 算法 ， 如 何 利 用 多 流向 算法 更 加 精确 地 提取 侵蚀 地 形 
因子 是 今后 的 研究 问题 之 一 。 
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